ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
在科研、新闻报道、数据分析等领域,图表是信息传递的核心载体。要让多模态大语言模型(MLLMs)真正服务于科学研究,必须具备以下两个能力:
在科研、新闻报道、数据分析等领域,图表是信息传递的核心载体。要让多模态大语言模型(MLLMs)真正服务于科学研究,必须具备以下两个能力:
录用信息:ICCV 2025 highlight论文题目:Video Individual Counting for Moving Drones论文作者:Yaowu Fan, Jia Wan, Tao Han, Antoni B. Chan, Andy J.
当训练好的 3D 检测模型被直接拿到雨夜、雾天、传感器抖动等分布外场景中时,性能往往会显著下降。这背后隐藏的关键原因,是双重不确定性(Dual Uncertainty)的累积效应。
在伸手不见五指的夜晚,自动驾驶汽车和安防摄像头如何才能像白天一样“看”清世界?低光环境下的目标检测一直是计算机视觉领域的棘手难题。来自复旦大学的研究者们带来了一项突破性工作Dark-ISP,提出了一种全新的、为低光检测量身定制的图像处理范式。这项研究已被计算机
他与大家分享的主题是:图像生成中的无训练遮挡控制,届时他将探究可否不通过额外数据标注和训练就能够实现遮挡的控制、是否可以将3D渲染过程借鉴到图像生成过程中,从而实现遮挡控制。相关工作已入选ICCV Oral,并在审稿阶段获得满分。
随着三维计算机视觉技术的不断进步,三维人类-物体交互(3D Human-Object Interaction,3D HOI)建模成为了一个备受关注的研究方向,尤其是在虚拟现实、增强现实和机器人技术等领域。现有方法主要局限于单向建模,需要为每种条件设计独立的模型
基于点云的3D SOT是指在动态三维场景中持续定位特定目标的任务。该任务在自动驾驶与移动机器人等多个领域展现出广阔的应用前景。与利用丰富纹理和色彩信息的RGB图像跟踪方法不同,基于3D雷达的单目标跟踪主要依赖于稀疏且不规则的点云数据来估计目标的三维空间位姿。
掩码 令牌 iccv transfor trackany3d 2025-09-04 18:33 6
该论文的第一作者和通讯作者均来自北京大学王选计算机研究所,第一作者为博士生徐铸,通讯作者为博士生导师刘洋。团队近年来在 TPAMI、IJCV、CVPR、ICML 等顶会上有多项代表性成果发表,多次荣获国内外多模态理解预生成竞赛冠军,和国内外知名高校、科研机构广
本文提出了一个无需对目标类别进行再训练的新型少样本异常分割方法——DictAS,它通过从少量正常图像构建“字典”并利用字典查找机制识别查询图像中异常区域,从而在多个工业和医疗数据集上持续超越了现有的最先进 FSAS 方法。
该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 VDIG (Visual Data Interpreting and Generation) 实验室,第一作者为北京大学博士生周啸宇,通讯作者为博士生导师王勇涛副研究员。VDIG 实验室近年来在 IJ
本文第一作者周鑫、共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。合作者包括华中科技大学涂思凡,旷视科技丁宜康,迈驰智行陈习武、谭飞杨,香港大学赵恒爽助理教授。
通过使用控制变元(control variate)来校准每个客户端的本地梯度,Scaffold 已被广泛认为是缓解联邦学习中数据异质性影响的一种强大方案。但尽管 Scaffold 实现了显著的性能提升,这种优越性是以增加安全漏洞为代价的。
ntu 后门 iccv scaffold联邦 scaffol 2025-08-10 06:49 8
本文分享一篇南开大学和南京大学在ICCV 2025上发表的最新研究成果《Gaussian Splatting with Discretized SDF for Relightable Assets》。该研究提出了一个高效鲁棒的可重光照高斯模型——Discret